Nouveaux modèles dindex bitmap compressés à 64 bits
نویسندگان
چکیده
Résumé. Les index bitmap sont très utilisés dans les entrepôts de données et moteurs de recherche pour accélérer les requêtes d’interrogation. Leurs principaux avantages sont leur forme compacte et leur capacité à tirer profit du traitement parallèle de bits dans les CPU (bit-level parallelism). Dans l’ère actuelle du Big Data, les collections de données deviennent de plus en plus volumineuses. Les librairies d’index bitmap compressés disponibles à ce jour dans la littérature, telles que : Roaring bitmap, WAH ou Concise, ne supportent qu’au plus 2 ≈ 4 milliards d’entrées et sont très souvent impraticables dans de tels contextes. Après avoir constaté ce besoin tant dans le milieu industriel que scientifique, nous proposons trois nouveaux modèles d’index bitmap compressés, basés sur le format de notre précédente contribution Roaring bitmap et qui supportent jusqu’à 2 entrées. Des expériences sur des données synthétiques ont été mises en œuvre pour comparer les performances des trois nouvelles propositions avec la solution du moteur de recherche Apache Lucene : OpenBitSet, et d’autres collections Java. Les résultats ont montré que les trois nouvelles techniques ont été près de≈ 300 millions de fois et≈ 1800 fois moins volumineuses en consommation mémoire qu’OpenBitSet et les collections Java, respectivement. Aussi, les trois nouveaux modèles ont calculé des opérations logiques, jusqu’à ≈ 6 millions de fois et jusqu’à ≈ 63 milles fois plus vite qu’OpenBitSet et les structures Java, respectivement.
منابع مشابه
Modèles de Coût pour la Sélection de Vues Matérialisées dans le Nuage, Application aux Services Amazon EC2 et S3
Résumé. La performance des entrepôts de données est classiquement assurée grâce à des structures comme les index ou les vues matérialisées. Dans ce contexte, des modèles de coût permettent de sélectionner un ensemble pertinent de ce type de structures. Toutefois, cette sélection devient plus complexe dans les nuages informatiques, car en plus des temps de réponse, il faut simultanément optimise...
متن کاملLes index pour les entrepôts de données : comparaison entre index arbre-B et Bitmap
Résumé — Avec le développement des systèmes de décisionnel en générale et les entrepôts de données de manière particulière, il est devenu primordiale d’avoir une visibilité de la conception de l’entrepôt de données avant sa création, et cela vu l’importance de l’entrepôt de données qui se considère la source unique des données donnant sens à la décision. Dans un système de décisionnel, le bon f...
متن کاملConstruction et analyse de résumés de données évolutives : application aux données d'usage du Web
Résumé. La manière dont une visite est réalisée sur un site Web peut changer en raison de modifications liées à la structure et au contenu du site lui-même, ou bien en raison du changement de comportement de certains groupes d’utilisateurs ou de l’émergence de nouveaux comportements. Ainsi, les modèles associés à ces comportements dans la fouille d’usage du Web doivent être mis à jour continuel...
متن کاملFouille de données relationnelles dans les SGBD
Les travaux sur la fouille de données relationnelles prennent leur essor dans le domaine de la Programmation Logique Inductive (PLI). Bien qu’efficace en terme d’extraction de connaissances, la PLI est inadaptée pour traiter des bases de données relationnelles de grande taille. Dans cet article nous présentons une nouvelle approche qui apporte une solution efficace à la fouille de données relat...
متن کاملMethodes d'estimation de durees de vie de contrats d'assurances automobiles
En France, l’assurance automobile est un marché mature avec un faible taux de croissance. De plus, s’agissant d’un secteur convoité, de nouveaux intervenants (banques-assurances, les acteurs de la grande distribution . . .) viennent rejoindre les acteurs traditionnels. Confrontés à une forte concurrence exacerbée par la quasi-stabilité du parc automobile assurable, et face aux mutations importa...
متن کامل